Clip skip

Stable Diffusion web UIでNovelAIを再現しようとしたときに出てきた設定

https://github.com/kohya-ss/sd-scripts/blob/main/fine_tune_README_ja.md#clip%E3%81%AE%E5%87%BA%E5%8A%9B%E3%81%AE%E5%A4%89%E6%9B%B4

プロンプトを画像に反映するため、テキストの特徴量への変換を行うのがCLIP（Text Encoder）です。Stable DiffusionではCLIPの最後の層の出力を用いていますが、それを最後から二番目の層の出力を用いるよう変更できます。NovelAIによると、これによりより正確にプロンプトが反映されるようになるとのことです。

https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/5674What exactly is clip skip?

まとめby Claude.icon

CLIPモデル

レイヤー構成になっている

例えば、レイヤー1が「人」だと、レイヤー2が「男性」「女性」に分かれ、「男性」を選んだ場合レイヤー3が「男」「少年」「父親」「祖父」などに分かれる

CLIP Skip

CLIPモデルは12レイヤー構成

CLIP Skipを使うことで、text embeddingsのレイヤーを飛ばし、結果をより一般的にすることができる

CLIP SkipはCLIPモデルやその派生モデルでのみ機能する

OpenCLIPを使用する2.0モデルでは機能しない